当前,根据CNN处理的视频数据,主要执行动作识别。我们研究CNN的表示过程是否也可以通过将基于图像的动作音频表示为任务中的多模式动作识别。为此,我们提出了多模式的音频图像和视频动作识别器(MAIVAR),这是一个基于CNN的音频图像到视频融合模型,以视频和音频方式来实现卓越的动作识别性能。Maivar提取音频的有意义的图像表示,并将其与视频表示形式融合在一起,以获得更好的性能,与大规模动作识别数据集中的两种模式相比。
translated by 谷歌翻译
Deep learning approaches for spatio-temporal prediction problems such as crowd-flow prediction assumes data to be of fixed and regular shaped tensor and face challenges of handling irregular, sparse data tensor. This poses limitations in use-case scenarios such as predicting visit counts of individuals' for a given spatial area at a particular temporal resolution using raster/image format representation of the geographical region, since the movement patterns of an individual can be largely restricted and localized to a certain part of the raster. Additionally, current deep-learning approaches for solving such problem doesn't account for the geographical awareness of a region while modelling the spatio-temporal movement patterns of an individual. To address these limitations, there is a need to develop a novel strategy and modeling approach that can handle both sparse, irregular data while incorporating geo-awareness in the model. In this paper, we make use of quadtree as the data structure for representing the image and introduce a novel geo-aware enabled deep learning layer, GA-ConvLSTM that performs the convolution operation based on a novel geo-aware module based on quadtree data structure for incorporating spatial dependencies while maintaining the recurrent mechanism for accounting for temporal dependencies. We present this approach in the context of the problem of predicting spatial behaviors of an individual (e.g., frequent visits to specific locations) through deep-learning based predictive model, GADST-Predict. Experimental results on two GPS based trace data shows that the proposed method is effective in handling frequency visits over different use-cases with considerable high accuracy.
translated by 谷歌翻译
持续(渐进或终身学习)学习的最新进展集中在预防遗忘可能导致灾难性后果的预防上,但是必须解决两项重大挑战。首先是评估所提出方法的鲁棒性。第二个是确保学习任务的安全性在很大程度上没有探索。本文介绍了一项关于持续学习的任务(包括当前和以前学到的任务)的敏感性的全面研究,这些任务容易忘记。对抗攻击的任务的这种脆弱性引发了数据完整性和隐私方面的深刻问题。我们考虑任务增量学习(任务-IL)方案,并探索三个基于正则化的实验,三个基于重播的实验以及一种基于答复和示例方法的混合技术。我们检查了这些方法的鲁棒性。特别是,我们考虑了我们证明属于当前或先前学习的任务的任何类都容易出现错误分类的情况。我们的观察结果突出了现有任务IL方法的潜在局限性。我们的实证研究建议,研究界考虑了拟议的持续学习方法的鲁棒性,并投入了大量努力来减轻灾难性的遗忘。
translated by 谷歌翻译
深度学习模型通过从训练的数据集学习来提供图像处理的令人难以置信的结果。菠菜是一种含有维生素和营养素的叶蔬菜。在我们的研究中,已经使用了一种可以自动识别菠菜的深度学习方法,并且该方法具有总共五种菠菜的数据集,其中包含3785个图像。四种卷积神经网络(CNN)模型用于对我们的菠菜进行分类。这些模型为图像分类提供更准确的结果。在应用这些模型之前,存在一些预处理图像数据。为了预处理数据,需要发生一些方法。那些是RGB转换,过滤,调整大小和重新划分和分类。应用这些方法后,图像数据被预处理并准备好在分类器算法中使用。这些分类器的准确性在98.68%至99.79%之间。在这些模型中,VGG16实现了99.79%的最高精度。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
截至较晚的许多域名正在使用人工智能,法律制度也不例外。然而,正如现在所掌握的那样,来自美国最高法院(Scotus)的法律文件的良好注释数据集的数量非常有限。尽管最高法院裁决是公共领域的知识,但由于需要手动收集和处理每次划痕的数据,因此尝试与他们有意义的工作成为更大的任务。因此,我们的目标是创建Scotus法庭案件的高质量数据集,以便可以随时用于自然语言处理(NLP)研究和其他数据驱动应用程序。此外,NLP的最新进展为我们提供了构建可用于揭示影响法院决策的模式的预测模型的工具。通过使用先进的NLP算法来分析以前的法庭案件,训练有素的模型能够预测和分类法院的判断,鉴于原告和被告的文本格式的事实;换句话说,该模型正在通过产生最终判决来模拟人类陪审团。
translated by 谷歌翻译
Brac大学(Bracu)参与了大学罗佛挑战(URC),这是由Mars社会组织的大学级学生的机器人竞赛,以设计和建造一个将用于火星早期探险家的流动站。Bracu已经设计和开发了一个全功能的下一代火星罗孚,蒙古托伊,可以在星球火星的极端敌对状态下运行。不仅拥有自主和手动控制功能的蒙古Tori,它还能够进行科学任务,以确定火星环境中的土壤和风化的特点。
translated by 谷歌翻译
新的冠状病毒造成了超过一百万的死亡,并继续迅速传播。这种病毒靶向肺部,导致呼吸窘迫,这可以轻度或严重。肺的X射线或计算机断层扫描(CT)图像可以揭示患者是否感染Covid-19。许多研究人员正在尝试使用人工智能改善Covid-19检测。我们的动机是开发一种可以应对的自动方法,该方法可以应对标记数据的方案是耗时或昂贵的。在本文中,我们提出了使用依赖于Sobel边缘检测和生成对冲网络(GANS)的有限标记数据(SCLLD)的半监督分类来自动化Covid-19诊断。 GaN鉴别器输出是一种概率值,用于在这项工作中进行分类。建议的系统使用从Omid Hosparing收集的10,000 CT扫描培训,而公共数据集也用于验证我们的系统。将该方法与其他最先进的监督方法进行比较,例如高斯过程。据我们所知,这是第一次提出了对Covid-19检测的半监督方法。我们的系统能够从有限标记和未标记数据的混合学习,该数据由于缺乏足够量的标记数据而导致的监督学习者失败。因此,我们的半监督训练方法显着优于卷积神经网络(CNN)的监督培训,当标记的训练数据稀缺时。在精度,敏感性和特异性方面,我们的方法的95%置信区间分别为99.56±0.20%,99.88±0.24%和99.40±0.1.18%,而CNN的间隔(训练有素的监督)为68.34 + - 4.11%,91.2 + - 6.15%,46.40 + - 5.21%。
translated by 谷歌翻译
智能手表或健身追踪器由于负担得起和纵向监测功能而获得了潜在的健康跟踪设备的广泛欢迎。为了进一步扩大其健康跟踪能力,近年来,研究人员开始研究在实时利用光摄影学(PPG)数据中进行心房颤动(AF)检测的可能性,这是一种几乎所有智能手表中广泛使用的廉价传感器。从PPG信号检测AF检测的重大挑战来自智能手表PPG信号中的固有噪声。在本文中,我们提出了一种基于深度学习的新方法,即利用贝叶斯深度学习的力量来准确地从嘈杂的PPG信号中推断出AF风险,同时提供了预测的不确定性估计。在两个公开可用数据集上进行的广泛实验表明,我们提出的方法贝尼斯甲的表现优于现有的最新方法。此外,贝内斯比特(Bayesbeat)的参数比最先进的基线方法要少40-200倍,使其适合在资源约束可穿戴设备中部署。
translated by 谷歌翻译
Wind power forecasting helps with the planning for the power systems by contributing to having a higher level of certainty in decision-making. Due to the randomness inherent to meteorological events (e.g., wind speeds), making highly accurate long-term predictions for wind power can be extremely difficult. One approach to remedy this challenge is to utilize weather information from multiple points across a geographical grid to obtain a holistic view of the wind patterns, along with temporal information from the previous power outputs of the wind farms. Our proposed CNN-RNN architecture combines convolutional neural networks (CNNs) and recurrent neural networks (RNNs) to extract spatial and temporal information from multi-dimensional input data to make day-ahead predictions. In this regard, our method incorporates an ultra-wide learning view, combining data from multiple numerical weather prediction models, wind farms, and geographical locations. Additionally, we experiment with global forecasting approaches to understand the impact of training the same model over the datasets obtained from multiple different wind farms, and we employ a method where spatial information extracted from convolutional layers is passed to a tree ensemble (e.g., Light Gradient Boosting Machine (LGBM)) instead of fully connected layers. The results show that our proposed CNN-RNN architecture outperforms other models such as LGBM, Extra Tree regressor and linear regression when trained globally, but fails to replicate such performance when trained individually on each farm. We also observe that passing the spatial information from CNN to LGBM improves its performance, providing further evidence of CNN's spatial feature extraction capabilities.
translated by 谷歌翻译